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摘 ”要 


微 博 平 台 上 的 大 量 图 片 几 乎 相同 ， 差 别 仅 在 于 水 印 和 清晰 度 。 为 了 从 海量 图 片 中 找 出 几乎 相 
同 的 图 片 ， 本 文 提出 一 种 称 为 多 层 指纹 的 新 算法 。 多 层 指纹 包含 5 个 字符 串 和 3 种 实数 向 量 ， 
其 中 一 个 字符 串 用 于 快速 召回 ， 剩余 字符 串 、 向 量 用 于 计算 指纹 间 相 似 度 。 多 层 指 纹 的 算 力 
需求 很 小 ， 准 确 率 高 。 在 微 博 百 万 级 图 片 库 上 测试 结果 表明 ， 多 层 指 纹 的 检索 速度 达到 QPS 
345， 准 确 率 达到 97.69% 
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Abstract 


In weibo APP, there are many almost same images whose only difference are watermark and reso- 
lution. In order to find out the most similar image efficiently, this paper proposes a algorithm named 
multi-level fingerprint, which contains 5 character strings and 3 vectors. On a dataset of 1 million 


images from WEIBO APP, multi-level fingerprint achieves a precision 97.69% and QPS 345. 
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1 引言 号 相关 工作 


微 博 (weibo.com) 是 中 国 领 先 的 媒体 社交 平台 , 海量 用 户 每 天 发 布 数 以 亿 计 的 图 片 。 相 当 大 
比例 的 图 片 并 不 是 原创 ， 而 是 复制 已 有 的 图 片 ， 但 在 复制 过 程 中 会 损失 一 些 清晰 度 或 者 添加 一 
个 水 印 ， 几 乎 相同 。 为 了 更 好 地 理解 微 博 内 容 ， 需 要 找 出 来 这 些 几 乎 相同 的 图 片 。 

现 有 的 图 片 相 似 度 算 法 有 两 大 类 ， 传 统 图 像 处 理 方法 ， 人 工 设 计 图 片 指纹 ; 深度 学 习 方 法 ， 
使 用 训练 得 到 的 模型 从 图 片 提取 一 个 特征 向 量 ， 再 用 特征 向 量 计算 相似 度 。 


* 完 稿 日 期 : 2020 年 10 H 10 A 
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1: 相似 图 片 检索 流程 。 
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图 片 


图 2: 多 层 指 纹 检 索 流程 。 


平均 哈 希 算法 (aHash) 将 图 片 缩放 到 指定 宽 高 8 x 8， 然 后 计算 得 到 一 个 长 度 为 64 的 字符 
串 。 感 知 哈 希 算法 (pHash) 将 图 片 缩放 到 指定 宽 高 32 x 32， 然 后 计算 得 到 一 个 长 度 为 1024 的 
字符 串 。 差 异 哈 希 算法 (dHash) 将 图 片 缩放 到 指定 宽 高 9 x 8， 然 后 计算 得 到 一 个 长 度 为 64 的 
字符 串 。 字 符 串 中 每 个 字符 要 么 是 0 要 么 是 1， 两 个 字符 串 之 间 的 汉 明 距离 代表 两 张 图 片 之 间 
的 相似 度 。MarrHildrethHash 基于 Marr-Hildreth 边缘 算 子 计算 哈 希 值 ，RadialVarianceHash 基于 
Radon 变换 计算 哈 希 值 , BlockMeanHash 基于 块 均值 计算 哈 希 值 ，ColorMomentHash FH EE 
计算 哈 希 值 。 哈 希 类 算法 的 详细 介绍 见 [9]。 

SIFT 图 像 匹 配 [5, 6]， 从 一 张 图 片 得 到 128 维 的 描述 子 ， 然后 匹配 两 个 图 片 的 关键 点 。SIFT 
的 应 用 场景 是 将 同一 目标 在 不 同时 间 、 不 同 分 辨 灰 、 不 同 光 照 、 不 同位 姿 情 况 下 所 成 的 像 相对 
应 。 结 构 相 似 性 (SSIM, Structural Similarity)[7] 使 用 的 两 张 图 像 计 算出 一 个 取 值 范围 [0,1] 的 系 
数 。 当 两 张 图 像 相 同时 ，SSIM 值 等 于 1。 

[8] 设计 一 个 卷 积 神经 网 络 ， 同 时 输入 两 张 图 片 ， 然 后 计算 出 相似 度 。 工 程 实践 中 更 多 的 方 
法 是 , 用 神经 网 络 将 图 片 转化 为 特征 向 量 , 具体 模型 非常 多 , 最 近 流 行 有 SimCLR[2]、MoCo[4]、 
SwAV[1]。 两 个 特征 向 量 之 间 的 距离 就 代表 两 个 图 片 的 相似 度 , 距离 通常 采用 余弦 距离 和 欧式 距 
离 。 

在 微 博 场 景 下 ， 图 片 数量 很 大 ， 例 如 100 亿 张 。 如 果 使 用 传统 的 哈 希 类 指纹 或 者 神经 网 络 
类 特征 向 量 , 检索 相似 图 片 需要 消耗 大 量 的 算 力 。 对 照 检索 流程 (图 1), 输入 是 一 张 图 片 ,图片 
形式 是 一 个 三 维 数组 ， 存储 RGB 灰 度 值 。 实 时 计算 指纹 模块 采用 某 种 算法 由 三 维 数组 生成 一 个 
图 片 指 fp， 即 一 个 定 长 字符 串 或 者 一 个 定 长 浮 点 数 向 量 。 计 算 指纹 间距 离 是 计算 fo 与 指纹 库 中 
所 有 指纹 之 间 的 距离 ， 选 择 距 离 最 小 的 那 张 图 片 ， 输 出 其 唯一 标识 pid。 

“计算 指纹 距离 ”模块 的 资源 消耗 大 。 指 纹 库 通 常 很 大 ， 存 储 在 数据 库 表 中 ， 例 如 mysql 表 。 
计算 fo 与 库 中 指纹 的 距离 时 ， 通 常会 涉及 汉 明 距离 、 欧 式 距 离 、 余 弦 距 离 ， 但 数据 库 的 计算 能 
力 弱 ， 计 算 指 纹 距 离 会 消耗 大 量 时 间 ， 导 致 数据 支持 的 每 秒 访问 次 数 低 。 高 准确 率 和 低 计 算 量 
不 可 兼 得 。 哈 希 类 指纹 的 计算 量 小 ， 但 准确 率 低 。 神 经 网 络 得 到 特征 向 量 准确 率 较 高 ， 但 算法 
消耗 多 ， 通 常 要 用 昂贵 的 GPU 文 持 ， 普 通 CPU 服务 器 难以 胜任 。 

为 了 解决 算 力 需求 大 、 耗 时 多 问题 , 本 文 提 出 一 个 多 层 指纹 算法 , 一 张 图 片 的 多 层 指纹 包含 
5 个 字符 串 ，3 个 向 量 。1 个 字符 串 用 于 快速 召回 ， 剩 余 字 符 串 和 向 量 用 于 “计算 指纹 相似 度 ”， 
见 图 2。 使 用 微 博 搞笑 领域 图 片 测试 ， 多 层 指纹 的 准确 率 达 到 97.69%， 检 索 QPS 达到 345。 


本 文 后 续 内 容 这 样 组 织 。 第 2 节 给 出 整 图 指纹 ， 即 1 个 字符 串 和 3 个 向 量 的 计算 方法 ; 第 
3 节 给 出 小 块 指纹 ， 即 4 个 字符 串 的 计算 方法 ; 第 4 节 给 出 多 层 指纹 间 相 似 度 的 计算 方法 ; 第 5 
节 给 出 在 微 博 图 片 库 上 的 实验 结果 ; 第 6 节 总 结 全 文 。 


2 上 整 图 指纹 


任意 给 定 一 张 图 片 ， 图 片 的 高 和 宽 分 别 记 为 h 和 w， 将 图 片 的 三 通道 值 分 别 记 为 矩阵 R = 
(Tij hw» G= (9:3 hw» B(bij)nw, 矩阵 的 行 数 和 列 数 分 别 为 h Fw. WIR, 矩阵 元 素 Tij、 bij 和 
gi; 的 取 值 范围 是 [0,255] 中 的 整数 。 


今 


Fij = al], Jij = a], bij = 4L], 
这 里 的 |.| 意 为 向 下 取 整 。 相 应 的 灰 度 矩阵 记 为 R= (Fij)hw，G = Gij)nw, B= (dij)nw, WR, 
Tig. bij 和 Ji; 的 取 值 范围 是 0,4,8,...,252. 例如， 当 7ij = 251 时 , Fiy = 4,42] = 248. 
计算 灰 度 比例 。 任 意 指 定 实数 阐 值 0 < 61 < 100， 典 型 值 ô = 1。 任 意 指定 正 整数 3 < 
m < 64， 典 型 值 为 5。 对 Vi = 0,4,8,...,252， 将 忆 中 值 等 于 i 的 元 素 的 数量 记 为 ni, KE i 
所 占 的 比例 记 为 u; = SO. of ui 从 大 到 小 排序 ， 截 取 前 m 个 大 于 等 于 51 比值 组 成 向 量 ， 即 
U = (Ui, Wass «+ Uim) PERE un, > 0 k=1,2,...,m. 如 果 大 于 等 于 61 的 比值 wy 不 
fim, BAH ui =0 补 足 。 例 如 , u = (Ui, Ui U1, U-1, U1) = (97.09, 0.531, 0,0,0), 对 
应 的 下 标 (411, i12, 一 1, 一 1, 一 1) 值 为 (252, 68, -1, 一 1, 一 1)。 

接 下 来 调整 u 的 元 素 的 顺序 。 任 意 指定 实数 靖 值 bo > 0， 典 型 值 5。 = 0.5。 对 任意 两 个 相 
邻 的 元 素 Us, 和 uig, WR ui, 一 wis < 02 H i > i2, ABA wi, 和 wis 互 换 位 置 。 互 换 之 后 得 到 的 
向 量 记 为 如 = (Uj, Uja Ujas Ujas Ujs)。 例 如 w= (7.058,6.922,5.824,4.913,4.518)， 对 应 下 标 
为 (12, 16, 20, 24, 8)， 取 do = 0.5 调整 顺序 ， 得 到 @ = (7.058, 6.922, 5.824, 4.518, 4.913)， 对 应 下 
标 (jii, 512,513,014) 的 值 为 (12, 16, 20, 8, 24)。 

用 相同 的 方法 , 对 矩阵 G 计算 灰 度 比 例 , FEI [ALB 0 = (Via, Vj Vja Vja Vjas)o XERE B 
计算 灰 度 比例 , 得 到 向 量 Z = (231 Zj32 Zj Žjsa 2135)。 如 果 取 去 和 过 的 所 有 元 素 值 都 是 0, Ap 
LEi = 宇 ， 然 后 重新 计算 二、5 和 z。 如 、 和 z 称 为 图 片 的 灰 度 向 量 。 

拼接 整 图 指纹 fo。 将 上 的 数字 用 竖 线 和 下 划 线 连接 成 字符 串 ， 共 包含 3 段 。 当 m==5 时 
fo=h_wld 621j11 712_j13_j14_j15_j21_j22_j23_j24_j25_j31_j32_j33_j34_j35, 其 中 _ 不 是 下 标 , 是 
字符 。 例 如 图 3(a) 的 整 图 指纹 fo 为 
421 690|1.0 0.5|0 4 8 12 16.04 8 12 16 0 4 8 12 16 


3 小 块 指纹 


hi = a —10, ho =h- h, w = |2], w=w-w, w= (|Z), wa =w- w. 将 图 
片 分 为 4 块 , 见 图 3(b), 分 别称 为 左上 、 右 上 、 左 下 、 右 下 。4 抉 的 宽 高 分 别 为 hi x wi, hix we, 
ho x w3, ha x w4。 例 如 ， 图 3(b) 的 高 宽 分 别 为 h = 421, w = 690, BBA hy = 200, ho = 221, 
wi = 345, w2 = 345, w3 = 172, w4 = 518。 


(a) (b) (c) 
图 3: 夜景 图 ， 来 源 见 水 印 。(a) 整体 ，(b)4 个 小 块 ，(c) 几乎 相同 图 。 


对 左上 小 块 图 片 ， 计 算 其 灰 度 向 量 ， 用 灰 度 向 量 的 下 标 拼接 成 字符 串 
fi = 1 72 jis jis Jis 721_ J22_j23_j24_J25_j31_j32_j33_j34_j35 
与 如 相 比 , fi es 不 包含 高 宽 、61 和 02 。 对 右上 小 块 、 左 下 小 块 和 右 下 小 块 作 同样 
的 操作 ， 可 得 字符 串 户 、 户 、 和 fac 

Kf fo~ fa, Us BAZ ee 层 指纹 。 


F 


4 图 片 相似 度 


任意 给 定 两 张 图 片 p，i = 0,1， 多 层 指纹 记 为 有 ~ Si a. 和 Zz， 两 图 相似 度 记 为 s。 
任意 指定 实数 阔 值 0 < 63 < 0.2。 如 果 fo A fo, MBAS s=0. WR fo = fo, Xj = 1,2,3,4, 


A 
0.2, E S? = fj, 
Sj = 
0, ARAL, 
s5 = ~~ max (|| a9 — a! |l || 6° — 9 Ifa, || 29-2" |h), 
100 
相似 度 
02—s5+ Ds Æ s5 < 63, 
sS j=1 


0, 若 S5 a 63. 


例如 ， 记 图 3(a) A p, WEC) Hp’. Mm=5, 6 =1.0, 62=0.5, 63 =0.2, HEr} 2 5k 
图 的 多 层 指 纹 分 别 为 : 
f9 =421_69011.0_0.510_4_8_12_16_0_4_8_12_16_0_4_8_12_16, 
f? =0_4_8_12_16_0_4_8_12_16_4_8_0_12_16, 
f$ =0_4_8_12_16_0_4_8_12_-1_0_4_8_12_-1, 
f9 =0_4_8 12 28 0.4 8 12 16 4 0_36_8_40, 
f? =0_4_8_112_116_0_4 8 40_44 0.4 8 24 28, 
a? = (33.167, 12.927, 5.696, 3.042, 2.124), 
D = (39.312, 12.524, 5.579, 3.16, 2.829), 
2° = (24.216, 14.986, 9.932, 4.325, 2.922), 


表 1: 多 层 指 纹 的 准确 率 


63 | s 最 小 值 | 正确 样本 数量 | 错误 样本 数量 | 样本 总 数 | 准确 率 
0.01 0.6 288 0 288 100% 
0.02 | 0.6 325 3 328 | 99.09% 
0.03 | 0.6 339 8 347 | 97.69% 
0.2 0.6 346 31 377 | 91.78% 


0 = 421_69011.0_0.510_4 8 12 16_0_4 8 12 16_0_4 8.12 16, 

1 =0_4 8.12 16.0 4 8 12 16 4 8 0 12 16, 

2 =0_4 8 12 16 0.4 8 12 -104 8 12 -1, 

3 =0_4_8_12 28 0.4 8 12 16 _4 0 36_8_40, 

ft =0_4_8 112 116 .0 4 8 40 44 0 4 8 24 28, 

at = (33.167, 12.927, 5.696, 3.042, 2.124), 

v! = (39.313, 12.524, 5.578, 3.159, 2.828) , 

zl = (24.216, 14.986, 9.931, 4.326, 2.919). 

2 张 图 的 实际 差别 只 有 一 个 水 印 ， 相 似 度 s = 0.99997 准确 地 反映 这 个 差别 。 


5 实验 


日 期 20220803-20221007 的 微 博 图 片 ， 带 概念 标签 的 共有 1192348 张 。 选 定 参数 m = 5, 
61 二 1，62 = 0.5， 计 算 它们 的 多 层 指 纹 ， 并 存 入 云端 mysql 数据 表 。 同 时 存 人 数据 表 的 还 有 一 
个 md5 字段 , 图 片 文件 的 mq5 值 。md5 相同 的 图 片 视 为 同一 张 图 片 ， 数据 表 中 只 保留 一 条 记录 。 

对 任意 给 定 的 一 张 图 片 pp, 检索 几乎 相同 图 片 的 详细 过 程 是 这 样 。 计 算 图 片 po 指纹 ， 记 为 
fo ~ fo. wo, 0 Al 2°. FEMUR PRS 用 完全 相同 的 图 片 , 这 个 查找 操作 所 需 计算 量 只 有 字 
符 串 比 对 , 而 且 可 以 并 行 执行 , 速度 很 快 。 从 数据 表 中 找到 t 个 图 片 , 分 别 记 为 pi, i = 1,2,...,¢, 
其 整 图 指纹 记 为 fo, i = 1,2,.….,t， 显然 满足 月 = 用 。 然 后 使 用 第 4 节 中 的 算法 分 别 计算 po 与 
pi 的 相似 度 ， 相 似 度 最 大 的 图 片 即 为 检索 输出 。 

从 日 期 20221006-20221007 的 搞笑 领域 中 随机 挑选 一 批 图 片 进行 检索 , 并 人 工 判断 正 误 。 使 
用 条 件 53 = 0.01 H s > 0.4 时 ， 检 索 正 确 数量 288， 检 索 错误 数量 0， 准 确 率 100%; 使 用 条 件 
63 = 0.02, 63 = 0.03, 63 = 0.2 时 的 准确 率 分 别 为 99.09%、97.69%、91.78%， 详 见 表 1。 检索 速 
度 为 QPS 345. 


6 总 结 与 讨论 


多 层 指纹 的 优势 是 算 力 需求 低 ， 召 回 速度 快 。 计 算 多 层 指 纹 只 涉及 简单 的 频次 统计 ， 不 像 
神经 网 络 模型 那样 涉及 大 量 的 矩阵 向 量 乘 。 整 图 指纹 fo 能 快速 召回 大 致 相似 的 图 片 ， 过 滤 掉 绝 
大 部 分 不 太 可 能 相似 的 图 片 ， 减 少 幅度 可 达 5 个 数量 级 。 

第 4 节 中 的 指纹 相似 度 ， 可 以 蔡 换 为 传统 的 哈 希 指纹 相似 度 ， 也 可 以 替换 为 神经 网 络 特征 
向 量 相似 度 ， 对 检索 速度 影响 不 大 ， 但 可 能 影响 检索 的 准确 率 。 
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